Several self-supervised representation learning methods have been proposed for reinforcement learning (RL) with rich observations. For real-world applications of RL, recovering underlying latent states is crucial, particularly when sensory inputs contain irrelevant and exogenous information. In this work, we study how information bottlenecks can be used to construct latent states efficiently in the presence of task-irrelevant information. We propose architectures that utilize variational and discrete information bottlenecks, coined as RepDIB, to learn structured factorized representations. Exploiting the expressiveness bought by factorized representations, we introduce a simple, yet effective, bottleneck that can be integrated with any existing self-supervised objective for RL. We demonstrate this across several online and offline RL benchmarks, along with a real robot arm task, where we find that compressed representations with RepDIB can lead to strong performance improvements, as the learned bottlenecks help predict only the relevant state while ignoring irrelevant information.
translated by 谷歌翻译
Along with the widespread use of face recognition systems, their vulnerability has become highlighted. While existing face anti-spoofing methods can be generalized between attack types, generic solutions are still challenging due to the diversity of spoof characteristics. Recently, the spoof trace disentanglement framework has shown great potential for coping with both seen and unseen spoof scenarios, but the performance is largely restricted by the single-modal input. This paper focuses on this issue and presents a multi-modal disentanglement model which targetedly learns polysemantic spoof traces for more accurate and robust generic attack detection. In particular, based on the adversarial learning mechanism, a two-stream disentangling network is designed to estimate spoof patterns from the RGB and depth inputs, respectively. In this case, it captures complementary spoofing clues inhering in different attacks. Furthermore, a fusion module is exploited, which recalibrates both representations at multiple stages to promote the disentanglement in each individual modality. It then performs cross-modality aggregation to deliver a more comprehensive spoof trace representation for prediction. Extensive evaluations are conducted on multiple benchmarks, demonstrating that learning polysemantic spoof traces favorably contributes to anti-spoofing with more perceptible and interpretable results.
translated by 谷歌翻译
障碍物检测是机器人导航中的一个安全问题,即立体声匹配是一种流行的基于视觉的方法。尽管深度神经网络在计算机视觉中显示出令人印象深刻的结果,但以前的大多数障碍物检测都仅利用传统的立体声匹配技术来满足实时反馈的计算限制。本文提出了一种计算高效的方法,该方法利用深度神经网络直接从立体声图像中检测占用率。我们的方法没有从立体声数据中学习点云对应,而是根据体积表示提取紧凑的障碍物分布。此外,我们根据解码器产生的OCTREES以粗到1的方式修剪安全空间的计算。结果,我们在机载计算机上实现实时性能(NVIDIA JETSON TX2)。我们的方法可检测到32米的范围准确的障碍,并以最先进的立体声模型的计算成本的2%的计算成本获得了更好的IOU(相交)和CD(倒角距离)。此外,我们通过使用真实机器人进行自主导航实验来验证方法的鲁棒性和现实世界的可行性。因此,我们的工作有助于缩小机器人感知中基于立体声的系统与计算机视觉中最新的立体声模型之间的差距。为了应对高质量的现实世界立体声数据集的稀缺性,我们收集了一个1.36小时的立体声数据集,该数据集用jackal机器人来微调我们的模型。数据集,代码和更多可视化可在https://lhy.xyz/stereovoxelnet/上获得
translated by 谷歌翻译
学习准确的深度对于多视图3D对象检测至关重要。最近的方法主要是从单眼图像中学习深度,由于单眼深度学习的性质不足,这会面临固有的困难。在这项工作中,我们提出了一种新颖的环绕时间立体声(STS)技术,而不是使用唯一的单眼深度方法,而是利用跨时间之间的几何对应关系来促进准确的深度学习。具体而言,我们将自我车辆周围所有相机的视野视为统一的视图,即环绕浏览量,并在其上进行暂时立体声匹配。利用与STS不同框架之间的几何对应关系并与单眼深度结合在一起,以产生最终的深度预测。关于Nuscenes的综合实验表明,STS极大地提高了3D检测能力,特别是对于中距离和长距离对象。在带有RESNET-50骨架的BEVDEPTH上,STS分别提高了MAP和NDS,分别提高了2.6%和1.4%。当使用较大的主链和较大的图像分辨率时,观察到一致的改进,证明了其有效性
translated by 谷歌翻译
目前,在鸟眼中检测3D对象(BEV)优于其他3D检测器,用于自动驾驶和机器人技术。但是,将图像特征转换为BEV需要特别操作员进行特征采样。这些操作员在许多边缘设备上不受支持,在部署探测器时会带来额外的障碍。为了解决此问题,我们重新审视BEV表示的生成,并在透视图BEV中提出检测对象 - 一种不需要功能采样的新的BEV表示。我们证明,BEV功能同样可以享受BEV范式的好处。此外,视角BEV通过解决特征采样引起的问题来改善检测性能。我们建议基于此发现的透视bev空间中的高性能对象检测提出PERSDET。在实施简单且有效的结构时,SPEDET优于Nuscenes基准上的现有最新单眼方法,在使用Resnet-50作为骨架时,达到34.6%的MAP和40.8%的NDS。
translated by 谷歌翻译
本文提出了一种基于强化学习的导航方法,在其中我们将占用观测定义为运动原始启发式评估,而不是使用原始传感器数据。我们的方法可以将多传感器融合生成的占用数据快速映射到3D工作区中的轨迹值中。计算有效的轨迹评估允许对动作空间进行密集采样。我们利用不同数据结构中的占用观测来分析其对培训过程和导航性能的影响。我们在基于物理的仿真环境(包括静态和动态障碍)中对两个不同机器人进行训练和测试。我们通过最先进方法的其他常规数据结构对我们的占用表示进行基准测试。在动态环境中,通过物理机器人成功验证了训练有素的导航政策。结果表明,与其他占用表示相比,我们的方法不仅减少了所需的训练时间,还可以改善导航性能。我们的工作和所有相关信息的开源实现可从\ url {https://github.com/river-lab/tentabot}获得。
translated by 谷歌翻译
捕获和归因于代码变更引起的生产中的性能回归很难;事先预测它们,甚至更努力。关于自动学习预测软件中性能回归的入门,本文介绍了我们在Meta研究和部署基于ML的回归预测管道时获得的经验。在本文中,我们报告了一项比较研究,其复杂性增加了四个ML模型,从(1)代码 - opaque,(2)单词袋,(3)基于转换的变压器到(4)基于定制变压器的模型,创造的超大通信器。我们的调查表明,性能预测问题的固有难度,其特征是良性对回归变化的不平衡。我们的结果还质疑了基于变压器的架构在性能预测中的一般适用性:基于基础的代码伯特方法的性能令人惊讶。我们高度定制的超大号架构最初实现了预测性能,这与简单的单词模型相当,并且仅在下游用例中优于它们。超级人员将其转移到应用程序的这种能力很少有学习示例提供了在Meta实践中部署它的机会:它可以作为预滤波器来解决不太可能引入回归的更改,从而缩小更改空间的变化空间搜索回归高达43%,比随机基线提高45倍。为了进一步洞悉超大号公园,我们通过一系列计算反事实解释进行了探索。这些突出显示了代码的哪些部分更改模型认为重要的,从而验证了学习的黑框模型。
translated by 谷歌翻译
迄今为止,最强大的半监督对象检测器(SS-OD)基于伪盒,该盒子需要一系列带有微调超参数的后处理。在这项工作中,我们建议用稀疏的伪盒子以伪造的伪标签形式取代稀疏的伪盒。与伪盒相比,我们的密集伪标签(DPL)不涉及任何后处理方法,因此保留了更丰富的信息。我们还引入了一种区域选择技术,以突出关键信息,同时抑制密集标签所携带的噪声。我们将利用DPL作为密集老师的拟议的SS-OD算法命名。在可可和VOC上,密集的老师在各种环境下与基于伪盒的方法相比表现出卓越的表现。
translated by 谷歌翻译
沙尘暴可能会显着降低火星轨道轨道轨道的成像质量,并延迟绘制全球地形和地貌学的进度。为了解决这个问题,本文提出了一种方法,可以重用地球上获得的图像去除图像,以解决火星上的灰尘回避问题。在这种方法中,我们收集了Tianwen-1捕获的遥感图像,并手动选择了数百个干净和灰尘的图像。受到地球上雾兹的形成过程的启发,我们在干净的图像上制定了类似的视觉降解过程,并合成尘土飞扬的图像,与逼真的尘土飞扬的图像共享类似的特征分布。这些逼真的清洁和合成的尘土图像对用于训练一个固有地编码灰尘无关的特征并将它们解码为无尘图像的深层模型。定性和定量结果表明,拟议方法可以有效消除沙尘暴,从而显然改善了火星的地形和地貌细节。
translated by 谷歌翻译
轨迹预测和行为决策是自动驾驶汽车的两项重要任务,他们需要对环境环境有良好的了解;通过参考轨迹预测的输出,可以更好地做出行为决策。但是,大多数当前解决方案分别执行这两个任务。因此,提出了结合多个线索的联合神经网络,并将其命名为整体变压器,以预测轨迹并同时做出行为决策。为了更好地探索线索之间的内在关系,网络使用现有知识并采用三种注意力机制:稀疏的多头类型用于减少噪声影响,特征选择稀疏类型,可最佳地使用部分先验知识,并与Sigmoid多头激活类型,用于最佳使用后验知识。与其他轨迹预测模型相比,所提出的模型具有更好的综合性能和良好的解释性。感知噪声稳健性实验表明,所提出的模型具有良好的噪声稳健性。因此,结合多个提示的同时轨迹预测和行为决策可以降低计算成本并增强场景与代理之间的语义关系。
translated by 谷歌翻译